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+ Motivação 


= Computadores são usados para 
manipular e armazenar dados 


= Poucos dados: arquivos simples 
= Grandes volumes de dados? 
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Motivação 


= Problemas; 


= Redundância e inconsistência de dados 
= Múltiplos formatos de arquivos 


= Duplicação de informações em arquivos diferentes 
= Dificuldade de acesso aos/manipulação dos dados 
= Novo programa precisa ser escrito para realizar cada 


nova tarefa 
= Problemas de integridade 


= Restrições de integridade ficam escondidas no código, ao 


invés de explicitamente indicadas 
» Ex.: saldo da conta > O 
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+ Aula de hoje 


= Motivação 
= SGBD 
= Bases (bancos) de dados 


= Desenvolvimento de sistemas 
de bases de dados 
= Modelo relacional 


= Bases de dados biológicos 
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+ Motivação 


= Primeira opção: Sistemas de informação 
baseados em gerenciamento de arquivos 
= Rotinas específicas para tarefas específicas 


= Dados armazenados em disco, usando uma 
determinada estrutura de dados 


Estrutura de 


Aplicações —< 











Estrutura de 
Dados N 
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Motivação 


= Problemas 


= Falhas nas atualizações 


= Podem deixar a base de dados (BD) em um estado 
inconsistente, com atualizações apenas parciais 


« Ex.: transferência de recursos de uma conta para outras 
deve ou ser completa ou não ocorrer 


= Acesso concorrente por múltiplos usuários 


= Acesso concorrente sem controle pode levar a 
inconsistências 


» Dois usuários consultando e atualizando um arquivo ao 
mesmo tempo 


= Segurança 
= Difícil prover acesso a apenas parte dos dados 
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Bases de dados relacionais Exemplo 


= Coleção de tabelas = Dados de pacientes, amostras e seguências 


= Colunas representam os atributos dos dados = Um paciente tem uma ou mais amostras 
= Todos os dados em uma coluna devem ser do mesmo tipo = Cada amostra tem uma ou mais seguências 


= Cada registro é armazenado em uma linha 





Código| Sexo] Data de País | Código dal Região do| Data de Código da| Região| Formato FASTA 
hascimento amostra |corpo coleta seqliência 





Nome da tabela > Pessoal 





14f Bras igado 10/10/2005] 1111 ENV “atgecigacitgctacecttagaaatega 
14/ Brasi igado 10/10/2005] 1112 POT atgcctgacttgctacccitggaaacitaaa' 














Linha ou registro : : 144 Bras baço So200o [2222 ul accataactiaaa accataacitaaa 
Maria Av. La 23: 18 


. ' 14f Brasi baço ofa'2005 |2223 POT tacttac acttaccataacttaaa 
Luiz Rua Azul 20: 57 14/ Brasi baço 55/2005 |2223 POT tacttac acttaccataacttaaa 


SM Ango pulmão 22/2006 |3333 EM “atgcctgacta.. taciftactttaccataacttaaa 
212! Ango pulmão 212/2008 [3334 ull aaatega.. tactitactitaccataacitaaa' 








1 
1 
José Rua Sol 10 ' 23 oi 1 14/ Brasi igado 10/10/2005] 1113 ull aaatcga. tactitactttaccataacitaaa' 
pisa 1 
1 
1 






























































Coluna ou campo : 
10/06/07 7 2124 Ángo pulmão 2/2/2008 [3335 POT aaatega.. tactttactitaccataacitaaa 



































Exemplo Alternativa 


Replicado 6 vezes Possui 2 amostras Cada amostra tem 3 sequências 
af = Uso de um sistema intermediário que torna os 
Região 


Código | p Código da fegião do|Datade |Código Formato FASTA prog ramas independentes da estrutura de dados 


amostra /| corpo coleta seqliêngia 


E des "atgcctgacitgctacecttagaaatega = Sistema de gerenciamento de banco de dados (SGBD) 











10/10/2005] 1112 atgcctgacttgctacccitggaaacitaaa' 





10/10/2005] 1113 aaatcga. tactitactitaccataacitaaa' 








1 

1 

2 af52005 accataacitasa accataacitaaa 
2 5/5/2005 T |tacttac actitaccataacitaaa Definição da BD 
2 5/5/2005 T tacitac actitaccataacttaaa 
5 

5 

5 


























pulmão 212/2008 “atgcctgacta.. taciftactttaccataacttaaa 
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pulmão 21212006 aaatega.. tactitactitaccataacitaaa' Aplicações 


Ángo pulmão 212/2008 T aaatega.. tactitactitaccataacitaaa' 





Estrutura não otimizada 
Usa muito espaço em disco 


Cada atualização de paciente ou amostra deve ser propagada em todas as 
linhas do paciente ou amostra 16/08/2012 André de Carvalho - ICMC/USP 





Vantagens de um SGBD Sistemas de arquivo tradicionais x SGBD 





persistente de dados e informações 


estruturas de dados Reduz complexidade Definições dos dados é parte do 
Independência dos dados das aplicações código dos programas 
Consistência dos dados Controle de acesso aos Dados e aplicação são Dados e aplicação 


Acesso compartilhado à dados dependentes são independentes 


informação (multi-usuário = Segurança ; : 
e concorrente) « Facilita Backup Dados representados no nível | Representação 


físico conceitual 


Cada módulo implementa uma | Múltiplas visões dos 
visão dos dados dados 





Meta-dados 
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Base de Dados SGBD 
da qu. 


= Definição: = Tem funções para definir (incluir), 

= Coleção de dados logicamente relacionados que recuperar, excluir e modificar dados 

em algum EDS associado | em uma BD 

= Projetada, construida e preenchida com 

dados para satisfazer um propósito ou público 

específico 
= Representa algum aspecto do mundo real 

= Mini-mundo 
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SG B D Exe m IO Dominio(sexo) = caracter indicando o sexo: M 
D (masculino) e F (feminino) 
Informação no sistema de BD deve ter uma estrutura Atributo Dominio(pais) = cadela de caracteres com à 
os nome do pais de origem do paciente 
Descrição da estrutura = esquema E 


= Mantida na BD como metadados R - 

Conceitos e associações do mundo real devem ser codPaciente[ sexo | deside c 

capturados do mini-mundo e armazenados como 0001 | M | 1/1/1970 | |Brasil|| 
p 

metadados do SGBD 1119 | M | 1/4/1970 | Brasil | 
« Exemplo; 1209 16/10/1970 
= Mini-mundo: universidade 0002 OM 211/1997 
= Conceitos: cursos, disciplinas, aulas, alunos 1987 15/1/1979 | Brasil | 
: Pp cursos tem disciplinas, alunos se matriculam em | 1111 1/1/1980 | Angola | 
| 2040 ” F | 2/2980 | Angola | 


Tupla 
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SQL + SGBDs que usam SQL 


= Structure Query language = Produtos comerciais 
= É uma linguagem de computador que segue = Microsoft ACCESS (Microsoft Office) 
o padrão ANSI = Microsoft SQLserver 


= SQL permite: = Oracle 
= Consultar uma BD relacional = Freeware 
= Recuperar dados de uma BD = MySQL 
= Inserir novos registros em uma BD = PostgreSQL 
= Deletar registros de uma BD = MiniSQL 
= Atualizar registros em uma BD 
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+ Bases de dados biológicos + BD de genomas 


= Gerais = Toda sequência de genoma publicada deve ser 


= Sequências de DNA, funções de proteinas, disponibilizada em uma BD pública 


estruturas 3-dimensionais de proteínas, ... « Membros do International Nucleotide Sequence 
nua Database Collaboration sao os principais repositórios 
= Especializados 


= Consórcio formado por 3 grandes BDs 
= EST, STS, SNP, RNA, genomas, famílias de « EMBL (European Molecular Biology Laboratory nucleotide 


tei th dad d ' sequence database at EBl, Hinxton, UK) 
proteina, palhways, dados de microarray, = GenBank (at National Center for Biotechnology information, NCBI, 


Bethesda, MD, USA) 
= DDBJ (DNA Data Bank Japan at CIB , Mishima, Japan) 
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+ Conclusão + Agradecimento 


= Motivação = Prof Carlos Eduardo Ferreira, IME-USP 
= SGBD 


= Bases de dados 


= Desenvolvimento de Sistemas 
de BDs 


= Modelo Relacional 
= BD Biológicos 
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